Magellán PR - Nyitólap

Hajónapló

A hajónaplóban az általunk fontosnak tartott cikkekbõl, elemzésekbõl válogatunk.

Metakeresõk

Információbányák, www.prherald.hu, 2006. augusztus 1.

Még a nagyobb keresõ programok, mint a Google is csak a lapok 45%-át indexelik és teszik kereshetõvé. A „Rejtett Web” (Hidden Web) adatbázisai (pl. PubMed, Web of Science) becslések szerint ezerszer több adatot tárolnak, mint a „Nyitott Web” oldalai.
A legfõbb problémák: az információ lefedettség, a minõség, a túl sok felesleges adat, relevancia, aktualitás és teljesség, a nyelvi félreérthetõségek és az eltérõ felhasználói felület. A metakeresõk azonban képesek egyszerre több forrás keresésére is, hogy növeljék a keresési területet, a keresés pontosságát, a relevanciát, az eredményességét és a hatékonyságot.

Az információk az Interneten nagyon heterogének: A tartalom szétszórtan helyezkedik el különbözõ szervereken, címeken, formátumokban és eltérõ nyelveken, másmás hallgatóságot megcélozva. Holott a legtöbb információ valóban elérhetõ mégis gondjaink vannak a keresésnél, ugyanis sokan sokféle formában írták le azt, amit felhasználni szeretnénk. Ezen a területen egyértelmûen fejlõdés tapasztalható, hiszen a fejlettebb keresõk már nem csak a html fájlokat indexeleik, hanem például a pdf vagy doc fájlokat is, amelyek igen sok korábban közvetlenül hozzá nem férhetõ információt tettek kereshetõvé. De azért érzékelhetõ, hogy a rengeteg különbözõ fájltípus nehezíti ezt a helyzetet.

A heterogenitás nem csak a már megtalált információknál jelentkezik, hanem a keresés során is. Különbözõ keresõk és adatbázisok különbözõ felületekel rendelkeznek, különbözõ címeken érhetõek el. Nem véletlen, ha a legtöbb ember számára a keresés egyetlen keresõ használatát jelenti, hiszen a legtöbb esetben valóban lehet valamilyen információt kapni bármilyen témáról.

A teljesség iránti vágy
Még a legnagyobb keresõ programok, mint a Google is csak a lapok 45%-át indexelik és teszik kereshetõvé. Miért van ez? A Google adatbázisa jelenleg több mint nyolcmilliárd oldal indexét tartalmazza. Az úgynevezett Hidden (rejtett), vagy Deep (mély) jelzõkkel technikailag nem elérhetõ információkról beszélünk. Ezek hagyományos statikus html oldalak korábban nem kerültek indexelésre.

A google által indexelt lapok száma 2005. június 9-én: 8,058,044,651 lap. Itt egyszerre két problémával kell szembenézni. Látható egy hihetetlen gyors növekedés, ami nagyságrendileg is komoly növekedést takar. Úgyis megfogalmazhatnánk, hogy a tavalyi évben napi 230.000-el nõt a szerverek száma. Egyrészt tehát, van egy nagyon gyors növekedés, ami nehézséget jelent. A probléma másik oldalát úgy világítanánk meg, hogy pl. 2005. június 8-án 3 53 millió domain név létezett, majd 24 óra alatt több mint 700 ezer új domain nevet jegyeztek be, és ugyanakkor 680 ezret töröltek. Vagyis napi szinten a domain nevek több mint 1 százaléka megváltozott. Ahhoz hasonlítható ez, mintha az Országos Széchenyi Könyvtár 7,5 milliós gyûjteményébe naponta 75 ezer új könyvet kellene felvenni, és mondjuk 70 ezret pedig leselejtezni. Azt hiszem jól látjuk mindannyian, hogy hamarosan komoly nyilvántartási problémáik lennének.

Rejtett web
A Hidden Web adatbázisai (pl. PubMed, Web of Science) becslések szerint több százszor több adatot tárolnak, mint a „Nyitott Web” oldalai. Rengeteg olyan adatbázis, adatforrás található meg interneten keresztül elérhetõ formában, amely a tartalmát csak meghatározott kérésekre tárja fel. Vagyis nem indexelhetõ a hagyományos módszerekkel. Egyszerûen nincsenek a keresõ crawler kutató robotjai által elérhetõ fájlok, amiket kereshetõvé lehetne tenni a hagyományos módon.
Néhány éve a hidden web körébe sorolták a különbözõ nem html fájlformátumban levõ tartalmakat is, ma már ez is megoldott.

Nagyon sok olyan forrás létezik, ahol az információk háttér adatbázisokban találhatók, és csak kérésre kerülnek elõ azokból egy dinamikusan legenerált html oldalon való megjelenítésre. Ilyenek például a publikációs adatbázisok, amelyek ma már a legtöbbször teljes szövegükben tartalmazzák az adott publikációt, telefonkönyvek, enciklopédiák, szótárak, könyvtári katalógusok, törvények szövegei, szabványok, szabadalmak, hirdetések, hírek – amelyek sokszor a legfontosabb információkat osztják meg egy témával kapcsolatban.

Természetesen ezeket a forrásokat is kereshetõvé lehet tenni, mint ahogy például a NIH PubMed adatbázisa kereshetõ a Google-lel, azon az áron, hogy az NIH meghatározott idõközönként átadja az adatbázisainak tartalmát indexelésre. Ennek azonban nyilvánvaló korlátai vannak. Egyrészt az együttmûködés oldaláról, hiszen a keresõknek sorra megkellene állapodniuk ezekkel a forrásokkal, másrészt a legfrissebb – ilyen módon legrelevánsabb cikkek – csak az eredeti adatbázisban érhetõek el, hiszen nem lehet naponta átadni ezeket az információkat.

Relevancia
Az „ûrkutatás” keresõszóra például a google az ötödik a yahoo a negyedik helyen egy viccgyûjteményt hoz, ahol az ûrkutatáshoz kapcsolódó vicceket találunk. Ez a példa jól illusztrálja, hogy egy-egy forrás relevanciája a kérdésben nem feltétlenül könnyen meghatározható.

Aktualitás
A keresõk indexelõ programjai, csak meghatározott idõközönként képesek végiglátogatni az internetet, holott nagyon sok tartalom nagyon gyakran változik. Természetesen ezek az algoritmusok is folyamatosan fejlõdnek de nem várható minden tekintetben kielégítõ megoldások

Speciális problémák
A metakeresõk képesek egyszerre több „Nyitott Web” és „Rejtett Web” forrás keresésére, annak érdekében, hogy növeljék a keresési területet, a találati pontosságot, a relevanciát, az eredményességét és hatékonyságot. A rejtett webhez tartozó forrásokat összekapcsolhatod az indexelhetõ webbel, a keresések során ezzel a keresési területet is tudod növelni. Adott tématerületeken minõségi és releváns információt tartalmazó oldalakat emelhetsz ki. Tetszõleges számú egymástól eltérõ adatokat tartalmazó adatforrás egyidejû keresésére (keresõk, híroldalak, könyvtári katalógusok, publikációk oldalak stb.) van lehetõséged. A keresett adatbázisok köre is szabályozható. Igény szerint kihagyhatod, vagy hozzáadhatod az általad kívánt forrást a kereséshez.

Adott esetben ugyanis a megoldáshoz inkább a keresési terület célirányos szûkítése vezethet bennünket, kiválasztva a témában releváns információt tartalmazó forrásokat a kereséshez, kevesebb de sokkal jobb minõségû információt találhatunk.

Áttekinthetõség
A túl sok információ, illetve hatékonyság (information overload) problémájára a szoftverben a dinamikusan generált tartalomjegyzék jelent megoldást. Nagyon sok esetben a keresés nem a túl kevés, hanem a túl sok információ miatt mondható sikertelennek. A keresõk nagy része csak az elsõ néhány találatot nézi meg, és ha ott nem talál valami érdekeset, akkor egy másik kérdéssel, vagy keresõvel próbálkozik.

Indexálás
Hogyan teheted elérhetõvé a sokadik oldalon megbúvó, esetleg mégis értékes találatokat? Könnyen lehetséges, hogy egy téma meg sem jelenik az elsõ oldalon, illetve a témához kapcsolódó találatok mindegyike szinte biztosan nem látható egyszerre. Erre jelent megoldást a tartalomjegyzék, vagy index. Azonosítsd, és rendezd nyelvi csoportokba a találatokat, amelyek így jobban és gyorsabban áttekinthetõk.

A tartalomjegyzék fejlett nyelvi elemzõ technológiák felhasználásával készül, amiben nyelvi elemzéssel kapcsolat kutatók évtizedes tapasztalatit használják a lexikai elemzéshez. A szinonima-adatbázis speciális területeken (MESH), a magyar nyelvi elemzésben pedig a Morphologic a segítség. A keresés eredményességét egy jelenleg fejlesztés alatt álló módon is növelni kívánjuk, amikor a forrásokhoz mintegy kívülrõl szeretnénk hozzáadni nyelvi tudást az ún. query expansion segítségével.

Például ha a google-ben az „információkeresés” szóra keresünk 4930 találatot kapunk, ha az „információkeresési” szóra keresünk mindössze kapunk. A két keresést azonban kombinálhatjuk az OR szóval. Ezt szeretnénk automatikussá tenni a magyar nyelv esetében. A másik problémát a logikai operátorok okozták. A Google-ben nem szükséges a használatuk, mégis többen kapcsolták össze „AND”-del a beírt szavakat. Minden ilyen esetben megjelent egy tájékoztató szöveg, miszerint nem szükséges ezt használni, mert a Google alapértelmezetten így kapcsolja össze a szavakat. A keresési funkciók hátterét a jól kidolgozott, széleskörûen paraméterezhetõ adminisztrációs rendszer adja, mely lehetõséget ad arra, hogy eltérõ igényekhez is testre szabható legyen a rendszer, az egyszerûtõl a legösszetettebb kutatói funkciókig.

Jóföldi Endre

Metakeresõk, Információbányák, www.prherald.hu, 2006. augusztus 1.